量子位 05-14 07:05

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

📌 一句话：AI Agent评估从"有标准答案的考试"转向"真实世界的开放题"，47个无固定解的任务成为新标杆。

过去AI评估依赖标准化测试（如选择题、编程题），但这类任务已被各大模型"刷分"接近天花板。随着大模型进入Agent时代，如何评估其解决真实复杂问题的能力成为行业痛点。

当AI能流畅通过SAT、GRE，却在真实科研中帮不上忙时，标准化测试的局限性暴露无遗。这47个"无标准答案"的任务，本质上是在用人类真实工作场景倒逼AI能力进化——不是考你会不会，而是看你能不能把事做成。这是AI从"聪明"走向"有用"的关键一跃。 ---

📡 来源：量子位

📖 原文链接